package com.tledu.jsoup;


import com.tledu.httpclient.HttpUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;

public class Jsoup3 {
    public static void main(String[] args) throws IOException {
        // 获取网站
        String html = HttpUtils.get("https://sports.sina.com.cn/basketball/nba/2022-06-28/doc-imizmscu9077426.shtml");
        // 第二部 网站解析
        Document dom = Jsoup.parse(html);
        // 基于DOM对象提取数据
        // 关键点在于找网站上的规律，提取条件，越精确，误差越小
        // 标签是h1并且类是main-title => 选择器h1.main-title
        Elements elements = dom.select("h1.main-title");
        System.out.println("标题：" + elements.text());
        // date是时间的类，如果直接用类选择器的可能会定位到多个元素
        // 选择器， id为top_bar元素内部的样式为date的标签 => #top_bar .date
        Elements timeEl = dom.select("#top_bar .date");
        System.out.println("时间：" + timeEl.text());
        // 直接通过id获取
        Element contentEl = dom.getElementById("artibody");
        System.out.println("正文纯文本" + contentEl.text());
        //富文本 是带html结构的文本
        System.out.println("正文富文本" + contentEl.html());
    }

}
